统计模型

2020年A题核心要求是我认为是第2条:

  1. Use your factors to develop a model or algorithm (or set of models/algorithms) for a high school student to use to evaluate their summer job options based on their own situation and preferences as inputs to your model.

即建立一个基于个人偏好的暑期工作评价模型,第1条要求是为该问题做铺垫,第3个问题则是起到解释结果的作用:

  1. Test your model with at least ten fictional persons that you create with reasonable data. Explain your development of these fictional persons and the data you chose. Analyze the results of the application of your model on these persons.

由于前面建立的模型是一套程序或过程,并不能直观地体现模型如何运作,借助10个虚拟人物数据的代入,就是让建模者拿具体例子来解释一下模型如何使用。我们可能也有亲身体会,有时候老师讲理论时感觉不是很明白,但是再举个例子,就感觉豁然开朗了。A题命题者加上第3个问题用意可能就在于给建模同学一个解释模型的机会(如果没有这个问题,建模者能否想到用个例子来解释下呢?)。

虚拟数据有要求

当我们要展示我们模型是实用的、好用的,要举的例子也要给予模型展示的空间,要打好“配合”。具体是要:

所以生成虚拟数据这个环节也绝不能掉以轻心,如果给的例子不合适,模型的展示效果也就会大打折扣。就我们这个问题来看,最好选择由不同特点组成的人物数据,有男有女,有为体验生活而来的也有为攒钱而奋斗的,有性格开朗活泼的也有内向不爱说话的等等。

当然,生成的数据我们的模型也得能处理的了。自己的数据处理不了,那就有点自砸招牌的感觉了。真的自己提出的数据模型处理不了怎么办?这时候如果有时间,那就看看能否更新模型;如果时间不够了,那就老实在“优缺点分析”这一节里谈谈模型的局限,然后“忍痛”去除处理不了的情况。

结果解读很重要

不能结果得分一出就一走了之,将虚拟数据输入到模型中,计算出最适合的工作之后,还可以从结果(工作)出发,反向解读一下,为什么这个工作是合适的,有没有道理(当然是有道理啦)。同学可能会问:模型的流程已经定下来了,结果自然也是确定的了,为何还要解读? 我认为反向解读一下更有助于解释清楚结果的合理性,相当于利用常识进行double check 了。

图表更有表现力

所谓一图胜千言(HiMCM官方给的说法是:a picture is worth a thousand words!),就是说图表可以蕴含非常丰富的信息,同时也很符合大脑的理解习惯。我们可以利用雷达图表现虚拟人物的各项特点(图来自特等奖论文10656): 利用柱状图对比各项工作得分的高低(图来自10549): 用表格对比不同模型的结果(图来自特等奖论文10550): 当然以上只是一些例子,其实各种统计图表在建模比赛中都有用处,平时对各种图表形式多见一见,比赛时也会有更多思路。

最后一点

统计模型和模型结果非常重要,就好比我们生产出来工具,也需要教他人使用和理解一样,否则就只有自己懂了。另外,据笔者统计,平均特等奖论文中正文图表的数量为5个。初学建模的同学容易忽略图表在论文中的作用,可以借上述讨论来理解图表的用处。